混音是在语音事件中混合两种或多种语言的一种现象,并且在多语言社会中很普遍。鉴于代码混合的低资源性质,代码混合文本的机器生成是数据增强的普遍方法。但是,评估该机器生成的代码混合文本的质量是一个开放问题。在与INLG2022相处的共享任务的Hinglisheval提交时,我们尝试通过预测代码混合质量的评分来构建影响合成生成的代码混合文本质量的模型因素。
translated by 谷歌翻译
在大量人员中,在线社交媒体(OSMS)消费的广泛上升构成了遏制这些平台上仇恨内容的传播的关键问题。随着多种语言的效果越来越多,检测和表征仇恨的任务变得更加复杂。代码混合文本的微妙变化以及切换脚本仅增加了复杂性。本文介绍了哈索克2021多语种推特仇恨语音检测挑战的解决方案,由Team Precog IIIT Hyderabad。我们采用基于多语言变压器的方法,并为所有6个子任务描述了我们的架构作为挑战的一部分。在参加所有子特设券的6支球队中,我们的提交总体排名第3。
translated by 谷歌翻译
数据以难以想象的速度扩展,并且随着这种发展,有责任质量的数据。数据质量指的是信息存在的相关性,并有助于在特定组织中的决策和规划等各种操作。大多数数据质量是根据ad-hoc测量的,因此没有开发的概念提供任何实际应用。目前的实证研究是为制定了一个具体的自动化数据质量平台,以评估传入数据集的质量,并生成质量标签,分数和全面报告。我们利用来自HealthData.gov,Opendata.nhs和人口统计和健康调查(DHS)程序的各种数据集来观察质量分数的变化,并使用主成分分析(PCA)制定标签。目前的实证研究结果揭示了一种包括九种质量成分的度量,即来源,数据集特征,均匀性,元数据耦合,丢失小区的百分比和重复的行,数据的歪曲,分类列的不一致性比率和之间的相关性这些属性。该研究还提供了一种说明性的突变测试方法的公制的研究和验证。该研究研究提供了一个自动平台,该平台占据了传入的数据集和元数据,以提供DQ分数,报告和标签。本研究的结果对于数据科学家来说是有用的,因为这种质量标签的价值将在部署他/她各自的实际应用程序之前灌输信心。
translated by 谷歌翻译
Covid-19疫苗是我们最好的赌注,用于减轻大流行的持续冲击。但是,疫苗也预计将是有限的资源。最佳分配策略,特别是在具有访问不公平的国家和热点的时间分离,可能是停留疾病传播的有效方式。我们通过提出一种新的管道VACSIM来实现这个问题,将深度加强学习模型延装到用于优化Covid-19疫苗的分布的上下文的匪徒方法中。虽然加强学习模型建议了更好的行动和奖励,但上下文匪徒允许在现实世界场景中每天到日常实施的在线修改。我们评估此框架,防止与印度五个不同状态的Covid-19案例发生比例分配疫苗的天真分配方法(Assam,Delhi,Jharkhand,Maharashtra和Nagaland),并展示高达9039潜力的潜在感染,并增加了显着增加在通过VacSim方法的45天内限制差异的疗效。我们的型号和平台对印度所有国家和潜在的全球范围内都是可扩张的。我们还提出了新的评估策略,包括标准的基于区间模型的预测和对我们模型的因果关系评估。由于所有模型都携带可能需要在各种情况下进行测试的假设,因此我们开源我们的模型Vackim并贡献了与Openai健身房兼容的新型加固学习环境,以使其在全球的现实世界应用中可扩展。 (http://vacsim.tavlab.iiitd.edu.in:8000/)。
translated by 谷歌翻译